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RECONNAISSANCE VOCALE POUR 
LES LARGE S VOCABUIAIRES D YNAMI QUE S 

La presente invention se rapporte au domaine de la 
5 reconnaissance vocale. 

La presente invention se rapporte plus 
particulierement au domaine des interfaces vocales. Elle 
presente 1 ' avantage d'etre utilisable independamment du 
contexte de 1 ' application vocale particuliere : systeme de 
10 reconnaissance de la parole pour serveur t61ephonique , 
dictee vocale , systeme de commande et controle embarque f 
indexation d'enregistrements... 

Les logiciels commerciaux actuels de reconnaissance de 

15 la parole sont bases sur 1' usage de reseaux de Markov caches 
(HMM pour Hidden Markov Model en anglais) pour decrire le 
vocabulaire a reconnaitre, et sur un decodage utilisant un 
algorithme de type Viterbi pour associer a chaque 6nonce une 
phrase de ce vocabulaire. 

20 Les reseaux markoviens en question utilisent le plus 

souvent des etats a densite continue. 

Le vocabulaire de 1 9 application, qu'il soit a 
l'origine base sur des grammaires ou sur des modeles de 
langage stochastiques , est compile en un reseau d' etats 

25 fini f avec un phoneme de la langue utilis^e a chaque 
transition du reseau. Le remplacement de chacun de ces 
phonemes par un reseau markovien elementalre qui represente 
ce phoneme dans son contexte de coarticulation, produit 
finalement un grand reseau markovien sur lequel le decodage 

30 de Viterbi s' applique. Les reseaux elementaires eux-memes 
ont 6te appris grace a un corpus d' apprentissage et avec un 
algorithme d' apprentissage maintenant bien connu de type 
Baum-Welsh, par exemple. 
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Ces methodes aujourd'hui classiques sont decrites par 
exemple dans l'ouvrage de rSf^rence de Rabiner, et 1' usage 
de modeles de langage dans celui de F. Jelinek. 

Par souci de completude, nous allons neanmoins decrire 
5 Si nouveau de mani&re simplifi^e les differents composants 
d'un moteur de reconnaissance vocale actuel, dans un exemple 
particulier d' usage. 

Un signal de parole est conceptuellement une suite de 

10 phonemes continue ou interrompue par des pauses , des 
silences ou des bruits. Les proprietes acoustiques du signal 
de parole peuvent, au moins pour les voyelles f etre 
consid^rees comme stables sur des durSes de l'ordre de 30 
ms. Un signal issu du telephone, 6chantillonne & 8 kHz, va 

15 done etre segmente en trames de 256 echantillons (32 ms), 
avec un recouvrement de 50 % pour assurer une certaine 
continuity. L ' information phon^tique est ensuite extraite de 
chacune de ces trames par le calcul, par exemple dans le cas 
d' implementation d£crit ici, des 8 premiers MFCCs (Mel 

20 Frequency Cepstral Coefficients, voir [Richard]), de 
l'Snergie de la trame, et des deriv§es premieres et secondes 
de ces 9 grandeurs. Chaque trame est ainsi representee, 
toujours dans cet exemple particulier, par un vecteur de 
dimension 27 appele vecteur acoustique. En raison des 

25 variations inter- et intra-locuteur , des conditions 
d' enregistrement , etc. dans les signaux de parole, un 
phoneme ne sera pas represents par un point dans cet espace, 
mais par un nuage de points, autour d'une certaine moyenne 
avec un certain Stalement. La distribution de chaque nuage 

30 definit la density de probability d' apparition du phoneme 
associe. Si cette extraction par MFCC est judicieuse, on 
doit obtenir dans cet espace un ensemble de classes 
relativement compactes et separees les unes des autres, 
chacune correspondant a un phoneme. 
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Apres cette phase d' extraction acoustique, le signal 
de parole est done d§crit par une suite de vecteurs 
acoustiques f et le travail de reconnaissance consiste a 
determiner quelle suite de phonemes est, de la fagon la plus 
5 probable, associee a cette suite de vecteurs acoustiques. 



Conceptuellement done, un signal de parole est une 
suite de phonemes continue ou interrompue par des silences, 
des pauses ou du bruit. Le mot « z6ro » par exemple est 

10 constitue des phonemes [z], [e], [r], [o]. On pourrait 
imaginer un reseau de Markov gauche-droite h 4 etats, chaque 
etat etant associe a un de ces phonemes, dans lequel on ne 
permettrait aucun saut au-dessus d'un etat. Avec un modele 
entrain^, on pourrait realiser grace a l'algorithme de 

15 Viterbi un « alignement » d'un nouvel enregistrement , e'est- 
a-dire determiner le phoneme associe a chacune des trames. 
Cependant a cause des phenomenes de coarticulation entre 
phonemes (modification des caract^ristiques acoustiques d'un 
phoneme lors du changement de forme du conduit vocal entre 

20 deux sons stables), il est n^cessaire d'associer plusieurs 
6tats h un meme phoneme, pour prendre en compte 1' influence 
du contexte. On obtient ainsi des etats contextuels 
d' entree , des 6tats dit « cibles », qui correspondent a la 
partie stable du phoneme, mais qui peuvent dependre elle- 

25 meme des phenomenes de coarticulation, de telle sorte qu'il 
y a en general plusieurs cibles, et des etats contextuels de 
sortie. Dans cet exemple particulier, on peut done par 
exemple utiliser des reseaux markoviens £16mentaires en 
forme de papillons pour modeliser les phonemes 61ementaires 

30 de la langue. 

En reprenant 1' exemple precedent, on aurait par 
exemple pour le phoneme [e] un reseau tel qu'illustre Figure 
1. 

On aurait egalement par exemple pour le phoneme [z] un 
35 reseau tel qu'illustre Figure 2. 
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De meme, chacun des phonemes utilises pour deer ire la 
langue en question est associ£ a ce type de reseau 
markovien, different dans sa forme mais presentant toujours 
des entrees et sorties contextuelles dependant des 
5 phenomenes de coarticulation • 

Ces differents r^seaux, qui correspondent chacun h un 
phoneme de la langue, ont des densit^s de probability et 
des probabilites de transition qui sont determines par 
apprentissage sur un corpus de phrases enregistrees , avec 
10 1' usage d'un algorithme de type Baum-Welsh pour l'obtention 
des differents parametres (voir Rabiner par exemple) . 



Le vocabulaire a reconnaitre varie en fonction de 
1 ' application : ce peut etre un nom f ou un numero de 

15 telephone, ou des requetes plus compliquees, par exemple des 
phrases completes pour une application de dictee. II faut 
done specifier les mots a reconnaitre, leur enchainement, ou 
leur probability d'enchainement , la syntaxe des phrases si 
elle peut etre connue et dtcrite, pour utiliser cette 

20 connaissance supplementaire, simplifier les reseaux de 
Markov et obtenir de bonnes performances en temps de calcul 
et en taux de reconnaissance. 

C'est le role du modele de langage de representer 
cette connaissance. 

25 Dans 1' exemple a caractere d' illustration de l'etat de 

l'art dans ce domaine, nous utiliserons des modeles de 
langage bases sur des grammaires probabilistes , plutot que 
des modeles de langage stochastiques , comme ceux utilises 
par exemple dans les systemes de dictee. 

30 Une grammaire toute simple est celle constitute par la 

syntaxe article-nom-verbe f avec pour article « le », pour 
nom « chien » , et pour verbe « mange » ou « dort » . Le 
compilateur va transformer cette grammaire en un reseau de 
Markov , en mettant bout a bout les papillons des differents 

35 phonemes , en tliminant les branches inutiles, et ce pour 
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toutes les phrases compatibles avec la syntaxe, L'etat 
initial est fixe par un papillon specifique reprSsentant le 
silence de debut de phase. II va etre reliS a 1' entree 
« pause » du papillon du phoneme /l/. Seules les branches 
5 qui sont accessibles par transition a partir de cette entree 
sont conserves, jusqu'a la sortie correspondant au phoneme 
/o/. Cette sortie et ensuite reliee a 1'entrSe du papillon 
du /W correspondant au /l/. Puis par transition seules les 
branches utiles dans ce papillon sont conserves, et on 

10 continue ainsi jusqu'a epuisement des possibility de la 
grammaire. Le r^seau se termine necessairement sur un 
papillon modelisant le silence de fin de phrase. Des 
branches du reseau peuvent etre paralleles, si on a 
plusieurs possibilites de mots comme « mange » ou « dort », 

15 si on veut introduire une pause optionnelle entre deux mots, 

ou si plusieurs phon£tisations sont possibles pour un meme 

« 

mot (par exemple « le » peut se prononcer [10] ou [Ice] 
suivant la region d'origine du locuteur) . 

De plus a la fin de chaque sous-reseau (un sous-r^seau 

20 correspondant par exemple a un mot) f on introduit une 
transition « vide », c'est-a-dire avec une probability de 
transition 6gale k 1 , attach^e & une « etiquette » , qui est 
une chaine de caracteres donnant le mot represents par ce 
sous-reseau (elle sera utilisee lors de la reconnaissance). 

25 Le r^sultat de la compilation est un reseau complexe 

(d'autant plus que la grammaire est compliqu^e), optimise 
pour la reconnaissance d'un certain type d'Snonce. 

La construction du reseau markovien d'une application , 
dite compilation, comprend done trois phases representees 

30 Figure 3. 

Pour illustrer ces phases , nous allons prendre un 
nouvel exemple simple bas6 sur une grammaire selon le format 
ABNF du W3C : 



35 



#ABNF 1.0 ISO-8859-1; 
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language fr; 
root $main; 

5 public $main = $BEGSIL (tete | jambe) $ENDSIL; 

Cette grammaire permet simplement de decrire le modele 
de langage qui permet de reconnaitre le mot tete ou le mot 
jambe, de fagon Isolde, c'est-a-dire precedes et suivis d'un 
10 silence (et non pas de trouver une occurrence de ces mots 
dans des phrases plus complexes ) . 

Lorsque cette grammaire est compilee au niveau 
syntaxique, on obtient le reseau de la Figure 4. 

15 

Les transitions marquees W sont des marqueurs de mots 
qui serviront seulement a retrouver apres d§codage, le mot 
ef f ectivement prononce. Les transitions marquees L signalent 
un mot effectif de la langue qui devra etre phonetise, 

20 Puis la compilation lexicale, qui traduit la 

phonetisation des mots et 1 ' introduction de cette phonetique 
dans le reseau, produit le reseau de la Figure 5. 

Sur ce graphe comme sur les autres, les num^ros des 
6tats n'ont pas d ' importance . On retrouve encore les 

25 marqueurs de mots, qui sont situes dans le reseau de fagon 
arbitraire tant qu'ils sont bien presents sur tous les 
parcours du graphe qui represente le mot associe, et pas sur 
les autres . 

Et enfin, la compilation acoustique permet d'obtenir 
30 le reseau markovien final, par utilisation des reseaux 
acoustiques en lieu et place des phonemes associes, 
application des conditions de raccordement contextuelles des 
modeles, et optimisation du reseau, Ce reseau markovien est 
represente Figure 6. 
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Dans ce dernier graphe r les marqueurs de mots sont 
tou jours presents , et meme parfois dupliqu£s. 

Ce dernier graphe est uniquement presente pour montrer 
que sa complexity et le nombre d'etats qu'il comporte, sont 
5 beaucoup plus grands que pour le niveau lexical. La 
compilation acoustique est de loin la phase la plus longue, 
produisant le reseau le plus gros. 

Une fois le reseau markovien de 1 ' application 
10 construit come decrit ci-dessus, il est alors utilise par 
le moteur de reconnaissance pour la comprehension (decodage) 
des phrases prononcees par 1 'utilisateur . 

Dans un premier temps, comme il a et£ decrit plus 
haut, ce signal de parole est converti grace a la phase 
15 d' extraction acoustique, en une suite de vecteurs 
acoustiques . 

Il s'agit alors de determiner quel parcours dans le 
reseau markovien de 1' application, est le plus probablement 
associe a cette suite de vecteurs acoustiques, ou bien de 

20 decider que l'enonce n'est pas une des phrases que 
1' application est construite pour reconnaitre. 

Ceci est effectu£ en utilisant l'algorithme de 
decodage de Viterbi, par exemple. Le principe du decodage 
est illustre Figure 7 . 

25 Sur l'axe des abscisses du schema sont representes, en 

temps discret, les differents vecteurs acoustiques qui 
arrivent r#gulierement au moteur de reconnaissance (par 
exemple ici, toutes les 16 ms). 

En ordonnee, sont representes les differents etats du 

30 reseau markovien de 1 ' application, ainsi qu'ils ont ete 
obtenus apres la phase de compilation decrite plus haut, et 
qui utilisait a la fois la structure en papillon des 
phonemes 61ementaires de la langue, et la grammaire de 
1 9 application . 
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Ainsi, si l'on represente tous les 6tats du reseau sur 
l'axe vertical, seules certaines transitions entre ces etats 
sont possibles, avec une certaine probability, et au depart, 
on est forcement dans un des £tats associ^s au silence de 
5 depart, represents en double cercle sur la figure. 

On calcule alors, a chaque nouvelle trame, et en 
consid^rant toutes les transitions permises, le score du 
meilleur chemin amenant a tout Stat E j . 

II y a alors un 61agage, c'est-^-dire que l'on ne 
10 retient pour les developpements associSs aux prochaines 
trames, que les n meilleurs candidats, ou, selon certaines 
variantes de 1 ' algorithme, que les 6tats qui ont un score 
suf f isamment proche du score du meilleur parcours (i.e. 
celui qui au temps Ti, obtient le score le plus Sieve) . 

15 

A titre d'exemple, on a reprSsente sur le schema le 
front a 1' instant t4, avec les scores des differents 
candidats. Si, par exemple, on avait choisi de limiter le 
front k 3 etats, alors les hypotheses de developpement du 

20 front representees en vert n'auraient pas ete explorees. 

De la meme maniere, si l'on avait decide de ne 
conserver que les candidats ayant un score au moins egal a 
10% du score maximal, alors ces memes hypotheses n'auraient 
pas et6 explorees. 

25 En realite, on conserve generalement plusieurs 

centaines voire plusieurs milliers de candidats, selon la 
complexite de la grammaire. 

II faut remarquer que si la grammaire est complexe, il 
arrive frequemment que seule une petite portion du reseau 

30 markovien est ef f ectivement utilisee dans le decodage, le 
reste n'etant pas visits a cause de l'elagage lui-meme, qui 
supprime les hypotheses tr&s peu probables. 

Lorsque toutes les trames de parole ont §te 
35 consommees, on obtient alors, comme parcours le plus 
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probable , le chemin de plus haut score obtenu par 
l'algorithme pour lequel l'etat de sortie du reseau est 
atteint. On remonte alors la suite des etats associes, du 
dernier au premier (backtracking en anglais), pour obtenir 
5 la phrase qui a vraisemb lab lenient ete prononcee, en 
utilisant les fronts conserves aux differents instants. 
Ceci est illustre Figure 8. 



Plutot que de ne retenir que la suite d' etats qui a 
10 obtenu le meilleur score, il est possible d'en conserver 
plusieurs, en prenant soin de ne prendre en consideration 
que les suites qui sont ef f ectivement associees a des 
enonces differents (et non a des variant es d'un meme enonce, 
avec par exemple des alignements temporels differents ou 
15 bien avec des variantes de prononciation dif f erentes ) . 

Cette technique, dite de decodage Nbest, peut etre 
utilisee pour obtenir les n meilleurs candidats, avec pour 
chacun, un score associe, ce score etant d'autant plus 61eve 
que la phrase est plus probable. 

20 

Vis-a-vis du decodage de Viterbi, le decodage Nbest 
implique de conserver, dans le cas ou plusieurs transitions 
about is sent a un seul noeud, non pas le seul antecedent qui 
produit ce meilleur score, mais plusieurs antecedents et 

25 leur score associe. 

Done par exemple, s'il s'avere que le reseau final est 
en fait un arbre, e'est-a-dire si un noeud peut avoir 
plusieurs successeurs, mais qu'un nceud n'a tou jours qu'un 
seul antecedent, alors la phrase eff ectivement prononcee 

30 peut etre simplement deduite a partir du dernier noeud 
atteint, et il est alors possible de faire du decodage Nbest 
sans surcout, juste en classant en fin de decodage les noeuds 
finaux par ordre de scores decroissant. 
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La reconnaissance vocale selon l'etat de l'art que 
nous avons decrit, utilise un reseau de Markov cache qui est 
construit par compilation en trois phases : compilations 
syntaxique, lexicale puis acoustique, cette derniere phase 
5 6tant de loin la plus longue et produisant le reseau le plus 
gros . 

Le reseau obtenu est utilise par un algorithme de 
decodage de Viterbi avec 61agage, c'est-^-dire que seules 
les solutions qui semblent les plus prometteuses sont 
10 d^veloppees, et les autres abandonnees. 

Par ce principe d'elagage, chaque reconnaissance 
utilise une sous-partie du reseau differente. 



Nous avons vu que les moteurs de reconnaissance de 
15 l'art anterieur utilisent pour le decodage un reseau compile 
qui represente le vocabulaire actif, plus exactement 
1' ensemble des phrases que 1 ' application peut reconnaitre. 
Cette compilation est souvent un processus lent, meme sur 
des machines puissantes, et le reseau compile obtenu peut 
20 etre assez encombrant en memoire. 

Ceci est surtout p^nalisant pour les gros vocabulaires 
comme les listes de noms utilisSes en assistance vocale pour 
les annuaires (plusieurs centaines de milliers de noms, 
voire plusieurs millions pour certaines grandes villes), et 
25 qui, de plus f sont dynamiques : il faut pouvoir rapidement 
construire la liste associee a une zone g^ographique dans 
une requete d' elargissement autour d'une ville donnee par 
exemple . 

Comme on l'a vu dans la presentation de l'etat de 
30 l'art, la reconnaissance vocale actuelle s'appuie sur un 
reseau de Markov qui est construit par etapes successives, 
la derniere etape, la plus consommatrice en temps, 
produisant finalement un reseau directement utilisable dans 
1' algorithme de decodage. 
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Le decodage lui-meme est base sur 1 ' algorithme de 
Viterbi avec elagage, c'est-a-dire que seules les hypotheses 
de plus haut score sont conservees dans le developpement 
temporel de la recherche des meilleurs candidats. 
5 Lorsque le vocabulaire d'une application est grand, ou 

lorsque les grammaires sont complexes , done que le reseau 
markovien de 1 ' application comprend un tres grand nombre 
d'etats, il d^coule de l'61agage que seule une petite partie 
du reseau sera ef f ectivement utilisee au cours d'un decodage 
10 donn6, le reste 6tant repr^sentatif de parties du 
vocabulaire ou de la grammaire phon^tiquement tres 
diff^rentes de ce qui est eff ectivement prononce. 

Le principe de 1' invention est de construire 
dynamiquement , pour chaque decodage, la petite partie du 
15 reseau utile, plutot que, comme dans l'etat de l'art, 
construire d'abord le reseau complet qui sera ensuite 
utilise tel quel dans tous les decodages futurs. 

Plus pr6cis6ment, le principe de 1' invention est de 
construire un arbre phonetique repr^sentatif du vocabulaire 
20 de 1 ' application. Ce graphe correspond en quelque sorte au 
resultat des premieres etapes de compilation, jusqu'a la 
phase lexicale. 

La production de ce graphe est extremement rapide, 
meme pour de tr&s grands vocabulaires de plusieurs centaines 
25 de milliers de mots. 

Ce graphe est alors utilise au cours de chaque 
decodage, pour permettre de construire la partie du reseau 
de Markov acoustique necessaire selon l'elagage present. 

30 A cet effet, la presente invention concerne, dans son 

acception la plus generale, un proc£d£ de reconnaissance 
vocale comportant une etape de representation d'un 
vocabulaire traduit en un modele de Markov, une 6tape de 
decodage par un algorithme de Viterbi et une etape d'^lagage 

35 des solutions explor^es, caracterise en ce que ledit 
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vocabulaire est decrit sous forme d'un arbre compose d'arcs 
et de noeuds entre lesquels sont d^finies des transcriptions 
decrivant les unites phonetiques utilisees par le modele de 
langage de 1 ' application , et en ce que le reseau de Markov 
5 necessaire au decodage de Viterbi est construit au moins en 
partie de maniere dynamique grace a des sous-unit6s 
Markoviennes . 

Avantageusement f des mots differents du vocabulaire 
10 mais presentant des segments phonetiques identiques en d^but 
de mot partageront, pour ces segments identiques , les memes 
branches de 1 ' arbre phonetique . 

Selon un mode de mise en ceuvre, lesdites unites 
phonetiques sont des phonemes, 
15 Selon un autre mode de mise en oeuvre, lesdites unites 

phonetiques sont des phonemes en contexte. 

La presente invention se rapporte egalement a un 
systeme de reconnaissance vocale pour la mise en ceuvre du 
20 procede comprenant au moins une memoire et des moyens de 
calcul. 

On comprendra mieux 1' invention a 1 ' aide de la 
description, faite ci-apres a titre purement explicatif, 
25 d'un mode de realisation de 1' invention, en reference aux 
figures annexees : 

• la figure 1 illustre un exemple de reseau de 
Markov correspondant a un phoneme ; 

• la figure 2 illustre un autre exemple de reseau de 
30 Markov correspondant a un phoneme ; 

• la figure 3 represente la construction du reseau 
markovien d'une application, dite compilation ; 

• la figure 4 illustre un reseau obtenu lorsqu'une 
grammaire est compil§e au niveau syntaxique ; 
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• la figure 5 illustre un reseau produit par la 
compilation lexicale, qui traduit la phonetisation des mots 
et 1' introduction de cette phonetique dans le reseau ; 

• la figure 6 represente un autre exemple de reseau 
5 markovien ; 

• les figures 7 et 8 illustrent le principe du 
decodage ; 

• la figure 9 illustre un exemple de graphe pour la 
mise en oeuvre du proc^de selon 1' invention ; 

10 • la figure 10 illustre la forme d'un arbre ; 

• la figure 11 illustre un reseau markovien 
representant le phoneme [m] ; 

• la figure 12 illustre un reseau markovien extrait 
de celui de la figure 11 selon les contraintes de contexte ; 

15 • les figures 13, 14, 15, 16, 17, 18, 20 et 21 

repr^sentent d'autres r^seaux de Markov ; et 

• la figure 19 illustre un arbre. 

Dans un exemple particulier d' utilisation, 1' invention 
20 est particulierement adaptee a la reconnaissance vocale sur 
de tres grandes listes de mots ou de noms, par exemple pour 
des applications d'annuaires vocaux. 

La description de 1' invention sera done faite, de 
fagon non limitative, pour ce type d' application. 
25 L'acces a 1 ' annuaire se fait pour 1 ' utilisateur au 

travers d'une suite de questions-reponses , dont un exemple 
est donne Figure 9 . 

Dans cette sequence de questions, certaines vont 
30 occasionner des reponses possibles pour un vocabulaire 
constitue par une longue liste de noms : par exemple 
« Reconnaissance Norn » pour une ville importante, si la 
liste des abonnes a ete mise a jour, Cette liste doit 
d' autre part etre 61argie dans le cas ou le dialogue mene a 
35 1 'extension aux localites voisines, e'est-a-dire si la 
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recherche doit etre £tendue a des villes proches de la ville 
initiale de recherche, 

C'est principalement dans ces cas que la technologie 
actuelle de l'^tat de l'art est inutilisable, car la 
compilation du reseau markovien qu'elle n^cessite est 
beaucoup trop lente. 

On voit egalement sur ces graphes 1' usage du decodage 
Nbest, qui permet d'enumerer les solutions possibles et de 
demander la validation par 1 ' utilisateur . 

Ces listes sont construites par interrogation d'une 
base de donnSes, qui, pour chaque ville, donne les abonn^s 
telephoniques et la ou les phonetisations possibles de ces 
noms . 

Nous allons decrire le f onctionnement detaille de 
1' invention en utilisant une liste reduite de noms f afin de 
rendre clairs les developpements , meme s'il s ' avere que 
l'interet de 1' invention reside principalement dans son 
efficacite pour les grands vocabulaires . 

Prenons les noms suivants, avec leur phonetisation : 



Morand 


m • 


o 


. r • 


an 


Moraux 


m . 


o 


. r . 


au 


Mora z in 


m . 


o 


• r • 


a 


Morel 


m . 


o 


. r . 


ai 


Morice 


m . 


o 


. r . 


• 

i 


Morin 


m . 


o 


. r . 


in 



z . in 

1 . (e+()) 
s . (e+()) 



Dans 1' invention proposee, cette liste n'est done pas 
utilisee pour produire un reseau classique par compilation 
tel que decrit dans l'etat de l'art pr^sente plus haut, Elle 
est au contraire transformee en un arbre phon6tique 
deterministe . 

Pour les noms donnes ci-dessus, cet arbre prendra la 
forme telle qu'illustr^e Figure 10. 
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II faut noter que la creation d'un tel graphe est 
extremement rapide, puisque sur une machine de calcul de 
Hewlett Packard de type Pentium 3 de 1GHz de frequence 
d'horloge, il faut par exemple 0,4 seconde pour former 
5 l'arbre d'une ville de 60 000 habitants, alors que la 
compilation standard complete de cette meme liste prend sur 
la meme machine environ 8 minutes, ce qui est incompatible 
avec le temps d'attente d'une personne utilisatrice du 
service. C'est en effet la phase de construction du rSseau 
10 markovien final qui est la plus longue. 

L'arbre precedent est utilise, selon la presente 
invention, dans le decodage de Viterbi pref erentiellement de 
la maniere suivante (des variantes seront presentees plus 
15 loin) : 

Au demarrage du decodage, nous sommes dans l'etat 
initial du graphe represents par la boite numerotee 0. 

Ce graphe montre que le premier phoneme est un [m] , 
20 avec a gauche un silence de debut de mot, puisque c'est le 
premier etat, et a droite un unique phoneme [o] . 

Si par exemple, dans le jeu des reseaux markoviens 
elSmentaires utilises, selon 1'Stat de l'art, le phoneme [m] 
est represents par le reseau de la Figure 11. 

25 

Alors, puisque a gauche du phoneme [m] on a seulement 
un silence, qui correspond a 1' entree qe_mjpau, et puisque a 
droite on a un seul phoneme [o], qui correspond a la sortie 
qs_m_pom, alors seuls les Stats grises du modele SISmentaire 
30 seront ef f ectivement accessibles et utiles. 

On composera done le reseau illustre Figure 12 extrait 
du precedent selon les contraintes de contexte. 

On commencera le decodage de Viterbi avec elagage sur 
35 ce rSseau. Lorsqu'une des hypotheses developpSes dans le 
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front atteindra l'Stat qs_m_pom, il faudra alors construire 
la suite du rSseau dynamiquement pour poursuivre le 
decodage • 

Pour cela on utilise l'arc phonetique pour trouver que 
5 le phoneme suivant est un [o], pris entre le phoneme [m] et 
le phoneme [ r ] • 

La situation est identique : 

Si par exemple le phoneme [o] est represents par le 
reseau markovien de la Figure 13, alors la partie utile , 
10 representee par les nceuds grises sur le dessin, sera du fait 
des contextes f conforme a la Figure 14. 

Et on obtiendra donc f a ce stade du decodage, le 
reseau dynamiquement construit de la Figure 15. 



15 Encore une fois, lorsqu'une des hypotheses du decodage 

de Viterbi atteindra l'Stat final de ce reseau (note ici 
qs_o_r), on utilisera 1'arbre phonetique pour constater que 
le phoneme suivant est un [r]. 

A ce stade , ce reseau construit dynamiquement est bien 

20 la sous-partie du reseau complet qui aurait ete obtenu par 
une compilation traditionnelle . La seule difference est 
qu'il est construit a la demande r et non avant usage de 
maniere complete et statique. 

En d'autres termes, l'Slagage n'a pas encore d' impact 

25 sur le d^veloppement du reseau qui reduirait ef f ectivement 
les portions de reseau developpees. 

Nous allons voir maintenant ce point particulier dans 
notre exemple en poursuivant le decodage dans un contexte 
phonetique plus riche : 

30 En effet, le [r] est cette fois present dans un 

contexte phonetique plus riche , puisqu'on trouve a sa droite 
dans 1'arbre les phonemes [in], [i], [ai], [a], [au], [an]. 

Si le [r] est represents par le reseau de la Figure 
16, alors la partie utile de ce contexte sera conforme a la 

35 Figure 17. 
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Et finalement, on arrivera a ce stade au rSseau actif 
dynamiquement construit represents sur la Figure 18. 

Supposons done que, au cours du decodage de Viterbi 
s'appuyant sur ce rSseau, une des hypotheses amene a l'etat 
5 de sortie qs_r_i (parce que 1 ' utilisateur prononce 
ef fectivement Morice) avec un score tellement SlevS que les 
autres hypotheses, arrivant dans les autres Stats de sortie, 
soient eliminees du front. 

Alors au cours du dSveloppement dynamique suivant, 
10 seule la branche de l'arbre associee & cette hypothese sera 
dSveloppee, les autres etant abandonnees. Tout se passe 
comme si le dScodage se poursuivait sans les branches de 
l'arbre presentees en pointings sur la Figure 19. 

Ainsi cette fois, en consequence de l'elagage, le 
15 rSseau dynamiquement developpS selon le principe de 
1' invention n'est plus 1' image du reseau complet obtenu par 
compilation selon l'Stat de 1'art : e'est un reseau plus 
petit . 

L'exemple developpe ici est simple par souci de 
20 clarte, mais dans des applications rSelles, la partie du 
reseau ef fectivement developpee est tres faible comparee au 
reseau classique obtenu par compilation. 

On peut done dire que, selon l'Stat de l'art, le 
reseau markovien correspondant au vocabulaire de 
25 1' application est construit une fois pour toutes, et que 
pour chaque decodage, en raison de l'Slagage mis en ceuvre au 
cours du decodage, seule une petite partie de ce rSseau est 
ef fectivement utilisee. 

Tandis que, selon le principe de 1' invention, le 
30 reseau complet n'est jamais construit, mais la partie du 
rSseau ef fectivement nScessaire pour une reconnaissance 
donnSe est dynamiquement construite au cours du decodage. 

Dans 1 ' implementation que nous avons presentee, la 
35 partie du rSseau de Markov cachS de 1 ' application qui est 
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n^cessaire pour un decodage est construite dynamiquement , 
6tape par etape, en decoupant les reseaux markoviens 
§lementaires afin d'en extraire, selon les contextes 
d' apparition des phonemes dans l'arbre de 1 ' application , la 
5 sous-partie utile. 

L'arbre phonetique de 1 ' application joue dans ce 
processus un role central pour determiner ces contextes, de 
meme qu'il permet d'effectuer un decodage Nbest de maniere 
efficace et simple f du fait meme de sa structure d'arbre, 
10 par opposition h un graphe. 

II existe d'autres implementations de 1' invention 
propos^e, qui conserve le role central de cet arbre pour les 
raisons decrites • 

Nous allons dtcrire une de ces alternatives , de fagon 
15 non exclusive d'autres variantes. 



Supposons que nous ayons , pour une langue donnee, 40 
reseaux markoviens elementaires representant les phonemes 
utilises dans cette langue pour phonetiser les mots. Ces 

20 reseaux, comme dans les quelques exemples donnes, ont des 
6tats d' entree et de sortie pour representer les contextes 
phonetiques, selon des regies strictes : par exemple un 6tat 
qs_x_i ne peut etre connecte qu'a un etat qe_y_i, x et y 
etant deux reseaux elementaires quelconques. 

25 On peut construire alors un reseau global dans lequel 

les 40 sous-r^seaux sont mis en parallele, et de plus, 
toutes les sorties de chaque reseau sont connectees par des 
transitions vides a toutes les entrees de tous les reseaux 
qui lui sont compatibles selon les contextes phonetiques 

30 (c'est-a-dire qu'on a un reseau markovien correspondant a 
toutes les suites de phonemes possibles). 

II est alors possible, au lieu de developper 
dynamiquement comme prScedemment la partie utile du reseau, 
d'utiliser l'algorithme de Viterbi dans lequel les etats 

35 manipul^s sont des paires constitutes d'un etat du reseau 
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complet forme comme decrit ci-dessus et d'un nceud de l'arbre 
phonetique . 

Lorsqu'une hypothese amene a un des etats de sortie 
d'un papillon, alors on v^rifie dans l'arbre phonetique 
5 qu'il y a bien des branches compatibles avec le contexte 
phonetique associe a cet £tat. Dans le cas contraire, on 
abandonne le developpement de cette hypothese f comme si elle 
etait victime d'un 61agage standard. 

Cette m^thode est f onctionnellement 6quivalente a la 
10 methode proposee prec^demment , mais elle est plus couteuse 
en temps de calcul r puisque des hypotheses sont d§velopp£es 
meme s'il s ' avere ulterieurement qu'elles conduisent a des 
contextes phonetiques qui ne sont pas presents dans l'arbre 
de 1 ' application, et done qu'elles seront de toute fagon 
15 61iminees. 

Pour illustrer ce point , on peut reprendre l'exemple 
du phoneme [r] utilise dans notre exemple precedent. En 
raison de la structure particuliere de l'arbre de notre 
exemple, seuls les etats grises du modele complet , et les 
20 transitions entre ces 6tats, 6taient finalement utiles. On 
se reportera a cet effet a la Figure 20. 

Selon la description de la variante decrite ici f les 
autres transitions vers toutes les sorties non grisees 
seraient §galement d^veloppees, mais seraient ensuite 
25 abandonnees quand l'etat de sortie serait atteint r 
puisqu'aucun des contextes associes a ces etats n'est 
present dans l'arbre de cette application simple. 

II est possible de remedier a ce surplus de travail en 
ajoutant des transitions vides nouvelles dans chacun des 
30 reseaux §16mentaires utilises , qui se comportent comme des 
portes, e'est-a-dire qui peuvent etre ouvertes ou ferm^es. 

Dans le cas de l'exemple du r^seau associe au phoneme 
[r] ci-dessus , on aurait par exemple le reseau de la Figure 
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Sur ce modele, les transitions en point illes montre 
des transitions de type porte « ouverte », du fait du 
contexte d' apparition du [r], qui fait que tous les etats de 
sortie ne peuvent etre atteints. 
5 Pour les 6tats de sortie actives , en grise sur le 

schema, les portes associees sont fermees, et sont 
representees en traits pleins. 

Dans le front de d^veloppement utilise par 
1 ' algorithme de decodage de Viterbi avec elagage, il faut 

10 non seulement conserver, comme decrit plus haut, une 
reference a l'£tat du r£seau associe a l'hypothese que cet 
element du front representee mais aussi conserver dans des 
variables appropri£es l'etat des portes (ouvertes ou 
fermees) en tenant compte des contextes droits d' apparition 

15 du phoneme dans l'arbre. 

Par exemple, il est possible que dans un meme front , 
deux references differentes au meme phoneme done au meme 
r£seau soient presentes, mais dans des contextes phonetiques 
diff§rents et done avec des positionnements des portes 

20 differentes. 

Cette variante est ainsi f onctionnellement equivalente 
a 1 ' implementation standard presentee. Elle necessite 
neanmoins pour etre aussi efficace f de rajouter ces 
transitions vides de type porte et de les controler pour 

25 chaque element du front au cours du decodage en fonction des 
contextes rencontres a droite de chaque phoneme dans l'arbre 
phonetique . 

Nous avons vu que 1 9 arbre phonetique est central pour 
30 1' invention proposee, principalement pour permettre un 
decodage Nbest sans surcout. 

Bien sur f il est possible de stocker cet arbre de 
maniere plus compacte, par exemple en stockant un graphe 
equivalent a l'arbre dont les parties droites communes h 
35 plusieurs branches sont factoris£es. 
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Par contre, cette forme compacte sera utilisee comme 
representation de l'arbre lui-meme de la maniere standard 
d^crite plus haut. 



5 L' invention est decrite dans ce qui precede a titre 

d'exemple. II est entendu que 1 ' homme du metier est a meme 
de realiser differentes variantes de 1 1 invention sans pour 
autant sortir du cadre du brevet. 
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1. Procede de reconnaissance vocale comportant une 
etape de representation d'un vocabulaire traduit en un 
5 modele de Markov , une etape de decodage par un algorithme de 
Viterbi et une etape d'elagage des solutions explorees f 

caracterise en ce que ledit vocabulaire est decrit 
sous forme d'un arbre compose d'arcs et de nceuds entre 
lesquels sont d£finies des transcriptions decrivant les 
10 unites phonetiques utilisees par le modele de langage de 
1' application f et en ce que le r£seau de Markov n^cessaire 
au decodage de Viterbi est construit au moins en partie de 
maniere dynamique grace a des sous-unites Markoviennes . 

15 2. Procede de reconnaissance vocale selon la 

revendication 1, caracterise en ce que des mots differents 
du vocabulaire mais pr£sentant des segments phonetiques 
identiques en d£but de mot partageront, pour ces segments 
identiques, les memes branches de 1' arbre phon£tique. 

20 

3. Procede de reconnaissance vocale selon la 
revendication 1 ou 2 , caracterise en ce que lesdites unites 
phonetiques sont des phonemes . 

25 4. Procede de reconnaissance vocale selon la 

revendication 1 ou 2, caracterise en ce que lesdites unites 
phonetiques sont des phonemes en contexte. 

5. Systeme de reconnaissance vocale pour la mise en 
30 oeuvre du procede de reconnaissance vocale selon l'une 
quelconque des revendications pr£cedentes comprenant au 
moins une m^moire et des moyens de calcul. 



WO 2005/006308 



1/20 



PCTYFR2004/001799 



fc_pat 




Figure 1 



WO 2005/006308 



2/20 



PCT/FR2004/001799 




Figure 2 



WO 2005/006308 



PC17FR2004/001799 



3/20 



Grammaire BNF 



Compilation syntaxique 



Reseau syntaxique 



Compilation lexicale 



Reseau Lexical 



Compilation acoustique 



Reseau Markovien 
acoustique 



Figure 3 



WO 2005/006308 



4/20 



PCT/FR2004/001799 




Figure 4 




Figure 5 



WO 2005/006308 



5/20 



PCT7FR2004/001799 




Figure 6 



WO 2005/006308 PCT/FR2004/001799 

6/20 



o 


o 


o 








o 


o 


© 










<S>/ 






<e2>- 






We1>— 





FRONT au temps t4 

candidal : e4 score ; 210 predesesseur : e2 | 



candidat : e3 score : 190 predecesseur : e3 



candidat : eg | score : 1 78 | predecesseur : ej 



| candidat : e1 score : 10 | predecesseur : el 



| candidat : eS score : 3 | predeoesseur : e4~] 



Figure 7 



WO 2005/006308 PCT/FR2004/001799 

7/20 



<S> < S> (S> 

o 




<3> <2> <2> <S>. 



FRONT mi temps Final 



candidal : en-1 score : 690 precfecesseur : en-1 



| candidal : ... | score : 650 | predecesseur : ..7""] 



candidal : en score :53d predecesseur : en | 



[ candldat : e4 score : 30 predecesseur : e4 | 
I candidal : eS [ score : 3 | predecesseur : e4 | 



Figure 8 



WO 2005/006308 



8/20 



PCT7FR2004/001799 



Recherchezvous 
un partlculler 

dites , partlculier , 
ou uneentreprise 

ditec 'entreprSsg* 




Ps& ccmpria, rocommcnccr 
du choi£ I> 

Entioprle© 



non et derniero 
villcdola Uste 





oui 


Quel est Is nom 
de votre correspondent ? 



lists dc n <5 noma 



reconnaissance nom 
NBest v"' 



I Validation: s'aglt-ll die 'nom' ? I 

T 



A 



nan et paj dernier 
nom do la Hate 



<g ecpn nals sance ouj/nonI> 
oui 




L» nume«> de'nonri 1 
- est xxxx ■■■ 



II n'yo paode'nonY 
dansVllle* 
voulez-vous etendre la recherche 
aux locallte volslnes? 



<gjcon nalssance oui/norO 

npn "•-••'-^ oui 

■ Sortie du dialogue > Cam position dyriomiq ue d u vocabulaliB 



Figure 9 



WO 2005/006308 



9/20 



PCT/FR2004/001799 




Figure 10 



WO 2005/006308 



10/20 



PCT7FR2004/001799 




Figure 1 1 



WO 2005/006308 



11/20 



PCT/FR2004/001799 




Figure 12 



WO 2005/006308 



12/20 



PCT/FR2004/001799 




Figure 13 



WO 2005/006308 PCT/FR2004/001799 

13/20 




Figure 14 



WO 2005/006308 PCT/FR2004/001799 

14/20 




Figure 15 



WO 2005/006308 



PCT/FR2004/001799 



15/20 




Figure 16 



WO 2005/006308 



16/20 



PCT/FR2004/001799 




Figure 17 



WO 2005/006308 



17/20 



PCT/FR2004/001799 




Figure 18 



WO 2005/006308 



18/20 



PCT/FR2004/001799 




WO 2005/006308 



PCT/FR2004/001799 



19/20 




Figure 20 



WO 2005/006308 



20/20 



PCT/FR2004/001799 




Figure 21 



INTERNATIONAL SEARCH REPORT 



^jternatlonal Application No 

jPcT/FR2004/001799 



A. CLASSIFICATION OF SUBJECT MATTER 

IPC 7 G10L15/08 



According to international Patent Classification (IPC) or to both national classification and IPC 



B. FIELDS SEARCHED 



Minimum documentation searched (classification system followed by classification symbols) 

IPC 7 G10L 



Documentation searched other than minimum documentation to the extent that such documents are included in the fields searched 



Electronic data base consulted during the international search (name of data base and, where practical, search terms used) 

EPO-Internal, WPI Data 



C. DOCUMENTS CONSIDERED TO BE RELEVANT 



Category ° Citation of document, with indication, where appropriate, of the relevant passages 



Relevant to claim No. 



FISSORE L ET AL: "STRATEGIES FOR LEXICAL 
ACCESS TO VERY LARGE VOCABULARIES" 
SPEECH COMMUNICATION, ELSEVIER SCIENCE 
PUBLISHERS, AMSTERDAM, NL, 
vol . 7, no. 4, 

1 December 1988 (1988-12-01), pages 
355-366, XP000006170 
ISSN: 0167-6393 
the whole document 

-/-- 



1,3,5 



2,4 



m 



Further documents are listed In the continuation of box C. 



Patent family members are listed In annex. 



° Special categories of cited documents : 

'A' document defining the general state of the art which Is not 
considered to be of particular relevance 

"E" earlier document but published on or after the International 
filing date 

'L* document which may throw doubts on priority claim (s) or 
which is cited to establish the publication date of another 
citation or other special reason (as specified) 

•O - document referring to an oral disclosure, use, exhibition or 
other means 

■P' document published prior to the international filing date but 
later than the priority date claimed 



T later document published after the international filing date 
or priority date and not in conflict with the application but 
cited to understand the principle or theory underlying the 
invention 

•X" document of particular relevance; the claimed invention 
cannot be considered novel or cannot be considered to 
involve an inventive step when the document is taken alone 

"Y* document of particular relevance; the claimed Invention 

cannot be considered to involve an inventive step when the 
document is combined with one or more other such docu- 
ments, such combination being obvious to a person skilled 
in the art. 

'&' document member of the same patent family 



Date of the actual completion of the international search 



18 November 2004 



Date of mailing of the international search report 



26/11/2004 



Name and mailing address of the ISA 

European Patent Office, P.B. 5818 Patentlaan 2 
NL-2280HVRi]swlJk 
TeL (+31-70) 340-2040. T>c 31 651 epo nl, 
Fax: (+31-70) 340-3016 



Authorized officer 



Quelavolne, R 



Form PCT/ISA/210 (second sheet) (January 2004) 



INTERNATIONAL SEARCH REPORT h^^no 

PFCT/FR2004/001799 


C(Contlnuatlon) DOCUMENTS CONSIDERED TO BE RELEVANT 


Category ° 


Citation of document, with indication, where appropriate, of the relevant passages 


Relevant to claim No. 


Y 


FISSORE L ET AL: "LEXICAL ACCESS TO LARGE 

VOCABULARIES FOR SPEECH RECOGNITION" 

IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND 

CTPMA1 DDnrrCCTMP TCCC TMP MCI.I VfkDI^ IIC 

MblMAL rKULtoollMu , Ittt lIMv,. NtW YUKK., Uo, 

vol. 37, no. 8, 

1 August 1989 (1989-08-01), pages 
1197-1212, XP000045947 

tccm. nnoc qcio 
loolM: UUyo-oolo 

abstract 


2 


Y 


US 5 677 988 A (TAKAMI JUN-ICHI ET AL) 
14 October 1997 (1997-10-14) 
the whole document 


4 


A 


WO 01/91107 A (LE HUITOUZE SERGE ; 
SOUFFLET FREDERIC (FR); THOMSON LICENSING 
SA (FR)) 29 November 2001 (2001-11-29) 
the whole document 


1-5 



Form PCT/ISA/210 (continuation o! second sheet) (January 2004) 



INTERNATIONAL SEARCH REPORT 

Information on patent family members 



international Application No 

CT/FR2004/001799 



Patent document 
cited in search report 



Publication 
date 



Patent family 
member(s) 



Publication 
date 



US 5677988 



14-10-1997 



JP 
JP 
JP 
DE 



2059656 C 
6202687 A 
7082348 B 
4241688 Al 



10-06-1996 

22- 07-1994 
06-09-1995 

23- 09-1993 



WO 0191107 



29-11-2001 



AU 6240701 A 

EP 1285434 Al 

W0 0191107 Al 

US 2004034519 Al 



03-12-2001 
26-02-2003 
29-11-2001 
19-02-2004 



Form PCT/1SA/210 (patent family annex) (January 2004) 



RAPPORT DE RECHERCHE INTERNATIONALE 



emande Internationale No 

CT/FR2004/001799 



A. CLASSEMENT DE L' OB JET DE LA DEMANDE 

CIB 7 G10L15/08 



Selonl la classification Internationale des brevets (CIB) ou a la fois selon la classification natlonale et la CIB 



B. DOMAINES SUR LESQUELS LA RECHERCHE A PORTE 



Documentation mtnlmale consultee (systeme de classification suivl des symboles de classement) 

CIB 7 G10L 



Documentation consultee autre que la documentation mlnfmafe dans la mesure ou ces documents refevent des domaines sur lesquels a porte la recherche 



Base de donnees electronique consultee au cours de la recherche Internationale (nom de la base de donnees, et si realisable, iermes de recherche utilises) 

EPCMnternal , WPI Data 



C. DOCUMENTS CONS1DERES COMME PERTINENTS 



Categorie ° Identification des documents cites, avec, le cas echeant, Indication des passages pertinents 



no. des revendications vlsees 



FISSORE L ET AL: " STRATEGIES FOR LEXICAL 
ACCESS TO VERY LARGE VOCABULARIES" 
SPEECH COMMUNICATION, ELSEVIER SCIENCE 
PUBLISHERS, AMSTERDAM, NL, 
vol. 7, no. 4, 

1 decembre 1988 (1988-12-01), pages 

355-366, XP000006170 

ISSN: 0167-6393 

le document en entier 



1,3,5 



2,4 



FISSORE L ET AL: "LEXICAL ACCESS TO LARGE 
VOCABULARIES FOR SPEECH RECOGNITION" 
IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND 
SIGNAL PROCESSING, IEEE INC. NEW YORK, US, 
vol. 37, no. 8, 1 aoQt 1989 (1989-08-01), 
pages 1197-1212, XP000045947 
ISSN: 0096-3518 
abrege 

-/-- 



| X| Vo * r ,a sulle du cadre c P° ur l a fin <te ,a H sle des documents 



j)( | Les documents de families de brevets sont indlques en annexe 



° Categories speciales de documents cites: 

"A - document definissant Petat general de la technique, non 

consldere comma partlculierement pertinent 
"E* document anterteur, mals publle a la date de depot International 

ou apres cette date 
'L 1 document pouvant jeter un doute sur une revendication de 

priorite ou cite pour determiner la date de publication d'une 

autre citation ou pour une raison speciale (telle qu'indlquee) 
"O" document se referant a une divulgation orale, a un usage, a 

une exposition ou tous autres moyens 

*P* document publle avant la date de depot international, mais 
posterieurement a la date de priorite revendiquee 



*T" document ulterteur publle apres la date de depot International ou la 
date de prforile et n'appartenenant pas a Petat de la 
technique pertinent, mals cite pour comprendre le prlncipe 
ou la theone constituant la base de Pinvention 

'X 1 document particutierement pertinent; Tinven tlon revendiquee ne peut 
etre conslderee comme nouveile ou comme impllquant une activite 
Inventive par rapport au document consldere isolement 

"Y" document partlcullerement pertinent; Tinven tlon revendiquee 

ne peut etre consideree comme impllquant une activite inventive 
torsque le document est associe a un ou plusieurs autres 
documents de meme nature, cette comblnaison etant evidente 
pour une personne du metier 

'&' document qui fait partie de la meme famiKe de brevets 



Date a laquelle la recherche Internationale a ete effectlvement achevee 



18 novembre 2004 



Date ^expedition du present rapport de recherche Internationale 



26/11/2004 



Nomet 



postaie de Padminlstration chargee de la recherche Internationale 

Office Europeen des Brevets, P.B. 5818 Patentlaan 2 

NL - 2280 HV Rtjswljk 

Tel. (+31-70) 340-2040, Tx. 31 651 epo nl, 

Fax: (+31-70) 340-3016 



Foncttonnalre autorise 



Quelavoine, R 



Formulalre PCT/lSA/210 (deuxlfeme feullls) (Janvier 2004) 



RAPPORT DE RECHERCHE INTERNATIONALE U mand ., nternaa ona.e no 

WCT/FR2004/001799 


C.(sulte) DOCUMENTS CONSIDERES COMME PERTINENTS 


Categorle 0 


Identification des documents cites, avec, le cas echeant, I'lndlcation des passages pertinents 


no. des revendications vlsSes 


Y 


US 5 677 988 A (TAKAMI JUN-ICHI ET AL) 
14 octobre 1997 (1997-10-14) 
le document en entier 


4 


A 


WO 01/91107 A (LE HUIT0UZE SERGE ; 
SOUFFLET FREDERIC (FR); THOMSON LICENSING 
SA (FR)) 29 novembre 2001 (2001-11-29) 
le document en entier 


1-5 



Formulalre PCT/1SA/210 (suite de la deuxleme feuRle) (Janvier 2004) 



RAPPORT DE RECHERCHE INTERNATIONALE 

Renselgnements f^BPs aux membres de families de brevets 



I 



emande Internationale No 

CT/FR2004/001799 



Document brevet cite 
au rapport de recherche 



Datede 
publication 



Membre(s) de la 
famllle de brevet(s) 



Date de 
publication 



US 5677988 



14-10-1997 



JP 
JP 
OP 
DE 



2059656 C 
6202687 A 
7082348 B 
4241688 Al 



10-06-1996 

22- 07-1994 
06-09-1995 

23- 09-1993 



W0 0191107 


A 


29-11-2001 AU 


6240701 A 


03-12-2001 




EP 


1285434 Al 


26-02-2003 






WO 


0191107 Al 


29-11-2001 






us 


2004034519 Al 


19-02-2004 



Formula! re PCT/1SA/210 (annexe families do brevets) (Janvier 2004) 



This Page is Inserted by IFW Indexing and Scanning 
Operations and is not part of the Official Record 



Defective images within this document are accurate representations of the original 
documents submitted by the applicant. 

Defects in the images include but are not limited to the items checked: 

jd BLACK BORDERS 



□ IMAGE CUT OFF AT TOP, BOTTOM OR SIDES 
\Jk FADED TEXT OR DRAWING 

□ BLURRED OR ILLEGIBLE TEXT OR DRAWING 

□ SKEWED/SLANTED IMAGES 

□ COLOR OR BLACK AND WHITE PHOTOGRAPHS 

□ GRAY SCALE DOCUMENTS 

□ LINES OR MARKS ON ORIGINAL DOCUMENT 

□ REFERENCE(S) OR EXHIBIT(S) SUBMITTED ARE POOR QUALITY 

□ OTHER: 

IMAGES ARE BEST AVAILABLE COPY. 
As rescanning these documents will not correct the image 
problems checked, please do not report these problems to 
the IFW Image Problem Mailbox. 



BEST AVAILABLE IMAGES 




